最近的研究表明,看似公平的机器学习模型在为对人们的生活或福祉产生影响的决策提供信息(例如,涉及教育,就业和贷款的申请)可能会在长期内无意中增加社会不平等。这是因为先前的公平意识算法仅考虑静态公平限制,例如机会均等或人口统计奇偶。但是,强制执行这种类型的限制可能会导致模型对处境不利的个人和社区产生负面影响。我们介绍ELF(执行长期公平性),这是第一个分类算法,可提供高信任公平保证,以长期或延迟影响。我们证明,ELF返回不公平解决方案的概率小于用户指定的公差,并且(在轻度假设下),如果有足够的培训数据,ELF能够找到并返回公平的解决方案,如果存在一个公平的解决方案。我们通过实验表明,我们的算法可以成功缓解长期不公平。
translated by 谷歌翻译
Temporal data like time series are often observed at irregular intervals which is a challenging setting for existing machine learning methods. To tackle this problem, we view such data as samples from some underlying continuous function. We then define a diffusion-based generative model that adds noise from a predefined stochastic process while preserving the continuity of the resulting underlying function. A neural network is trained to reverse this process which allows us to sample new realizations from the learned distribution. We define suitable stochastic processes as noise sources and introduce novel denoising and score-matching models on processes. Further, we show how to apply this approach to the multivariate probabilistic forecasting and imputation tasks. Through our extensive experiments, we demonstrate that our method outperforms previous models on synthetic and real-world datasets.
translated by 谷歌翻译
当人体的各种参数在日常生活中立即监测并与物联网(IoT)相连时,医疗保健数字化需要有效的人类传感器方法。特别是,用于迅速诊断COVID-19的机器学习(ML)传感器是医疗保健和环境援助生活(AAL)的物联网应用的一个重要案例(AAL)。通过各种诊断测试和成像结果确定Covid-19的感染状态是昂贵且耗时的。这项研究的目的是基于常规的血值(RBV)值,为诊断CoVID-19的快速,可靠和经济的替代工具提供了一种。该研究的数据集由总共5296例患者组成,具有相同数量的阴性和阳性Covid-19测试结果和51个常规血值。在这项研究中,13个流行的分类器机器学习模型和LogNnet神经网络模型被逐渐消失。在检测疾病的时间和准确性方面,最成功的分类器模型是基于直方图的梯度提升(HGB)。 HGB分类器确定了11个最重要的特征(LDL,胆固醇,HDL-C,MCHC,甘油三酸酯,淀粉酶,UA,LDH,CK-MB,ALP和MCH),以100%准确性检测该疾病,学习时间6.39秒。此外,讨论了这些特征在疾病诊断中的单,双重和三组合的重要性。我们建议将这11个特征及其组合用作诊断疾病的ML传感器的重要生物标志物,从而支持Arduino和云物联网服务上的边缘计算。
translated by 谷歌翻译
卷积神经网络(CNN)已通过卷积和汇总实现了图像分类的重大进展。特别是,图像池将连接的离散网格转换为具有相同连接性的还原网格,并允许还原功能考虑图像的所有像素。但是,对于图形而不存在满足此类属性的合并。实际上,某些方法基于一个顶点选择步骤,该步骤会导致重要信息丢失。其他方法学习了顶点集的模糊聚类,该聚类几乎诱导了几乎完全减少的图形。我们建议使用名为MivSpool的新合并方法克服这两个问题。该方法基于使用最大独立顶点集(MIV)和将其余顶点分配给幸存者的最大独立顶点集(MIV)的选择的顶点。因此,我们的方法不会丢弃任何顶点信息,也不会人为地增加图的密度。实验结果表明,各种标准数据集上的图形分类的精度有所提高。
translated by 谷歌翻译
会话代理通常使用关键字发现(KWS)来启动与用户的语音交互。对于用户体验和隐私考虑,现有的KWS方法主要关注准确性,这通常可以以牺牲引入延迟为代价。为了解决这一权衡,我们提出了一种新的方法来控制KWS模型延迟,并在没有明确了解关键字端点的情况下将其推广到任何损失函数。通过单个可调的超参数,我们的方法使人们能够平衡目标应用程序的检测潜伏期和准确性。从经验上讲,我们表明,与现有方法相比,我们的方法在延迟限制下具有出色的性能。也就是说,与基线的最新面积相比,我们对固定延迟目标进行了实质性25 \%的相对错误接受改进。我们还表明,与交叉熵损失相比,当我们的方法与最大造成的损失结合使用时,我们能够在固定潜伏期时将相对错误接受提高25%。
translated by 谷歌翻译
Recently, very large pre-trained models achieve state-of-the-art results in various natural language processing (NLP) tasks, but their size makes it more challenging to apply them in resource-constrained environments. Compression techniques allow to drastically reduce the size of the models and therefore their inference time with negligible impact on top-tier metrics. However, the general performance averaged across multiple tasks and/or languages may hide a drastic performance drop on under-represented features, which could result in the amplification of biases encoded by the models. In this work, we assess the impact of compression methods on Multilingual Neural Machine Translation models (MNMT) for various language groups, gender, and semantic biases by extensive analysis of compressed models on different machine translation benchmarks, i.e. FLORES-101, MT-Gender, and DiBiMT. We show that the performance of under-represented languages drops significantly, while the average BLEU metric only slightly decreases. Interestingly, the removal of noisy memorization with compression leads to a significant improvement for some medium-resource languages. Finally, we demonstrate that compression amplifies intrinsic gender and semantic biases, even in high-resource languages. Code: https://github.com/alirezamshi/bias-compressedMT
translated by 谷歌翻译
监测生物多样性对于管理和保护自然资源至关重要,尤其是在全球变化时期。通过大型时间或空间尺度收集生物的图像是一种有前途的实践,可以监测和研究自然生态系统的生物多样性变化,从而提供大量数据,并且对环境的干扰最少。目前,深度学习模型用于将生物分类自动化为分类单元。但是,这些分类器中的不精确性引入了难以控制的测量噪声,并且可能会大大阻碍数据的分析和解释。在我们的研究中,我们表明,可以通过数据效率高的图像变压器(DEIT)的集合来克服这种限制,从而极大地表现了先前的艺术状态(SOTA)。我们验证了各种各样的生态成像数据集的结果,以及从浮游生物到昆虫,鸟类,狗品种,野生动物和珊瑚的研究生物。在我们测试的所有数据集中,我们都实现了新的SOTA,并且根据数据集的不同,相对于先前的SOTA的错误从18.48%到87.50%不等,并且通常可以实现非常接近完美分类的性能。 Deits的合奏表现更好的主要原因不是由于Deits的单模性能,而是由于独立模型的预测具有较小的重叠,这可以最大程度地获得结合的利润。这将DEIT定位为生物多样性监测中图像分类的最佳候选者。
translated by 谷歌翻译
凭借在运动扫描系统生产的LIDAR点云注册的目的,我们提出了一种新颖的轨迹调整程序,可以利用重叠点云和关节集成之间所选可靠的3D点对应关系的自动提取。 (调整)与所有原始惯性和GNSS观察一起。这是使用紧密耦合的方式执行的动态网络方法来执行,这通过在传感器处的错误而不是轨迹等级来实现最佳补偿的轨迹。 3D对应关系被制定为该网络内的静态条件,并且利用校正的轨迹和可能在调整内确定的其他参数,以更高的精度生成注册点云。我们首先描述了选择对应关系以及将它们作为新观察模型作为动态网络插入的方法。然后,我们描述了对具有低成本MEMS惯性传感器的实用空气激光扫描场景中提出框架的性能进行评估。在进行的实验中,建议建立3D对应关系的方法在确定各种几何形状的点对点匹配方面是有效的,例如树木,建筑物和汽车。我们的结果表明,该方法提高了点云登记精度,否则在确定的平台姿态或位置(以标称和模拟的GNSS中断条件)中的错误受到强烈影响,并且可能仅使用总计的一小部分确定未知的触觉角度建立的3D对应数量。
translated by 谷歌翻译
数据增强是自然语言处理(NLP)模型的鲁棒性评估的重要组成部分,以及增强他们培训的数据的多样性。在本文中,我们呈现NL-Cogmenter,这是一种新的参与式Python的自然语言增强框架,它支持创建两个转换(对数据的修改)和过滤器(根据特定功能的数据拆分)。我们描述了框架和初始的117个变换和23个过滤器,用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构,Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用(\ url {https://github.com/gem-benchmark/nl-augmenter})。
translated by 谷歌翻译
本技术报告致力于综合估算epsilon作业。粗略地说,两个组V1和V2之间的ePsilon分配可以被理解为V1的子部分与V2的子部分之间的映射映射。V1的剩余元素(未包括在该映射中)被映射到V2的epsilon伪元素上。我们说这些元素被删除了。相反,V2的剩余元素对应于V1的epsilon伪元素的图像。我们说这些元素被插入了。结果,我们的方法提供了类似于inter拒绝插入或删除的一些元素的额外能力的池角算法之一。因此,自然处理不同尺寸的v1和v2,并以统一的方式决定映射/插入/删除。我们的算法是迭代和可微分的,因此可以容易地插入基于反正的学习框架,例如人工神经网络。
translated by 谷歌翻译